Пытаюсь переварить
LSTM.
У них там и такой "ключ," и сякой "ключ," и такое преобразование, и сякое преобразование.
Есть ключи сброса, есть ключи забывания, наверное, ещё какие есть.
А почему не стали использовать
softmax?
Вот у нас есть предыдущее состояние S и текущее преобразованное состояние s. Давайте вычислим S*p1 + s*p2 + 0*p3, и
(
Read more... )